We introduce a novel framework to track multiple objects in overhead camera videos for airport checkpoint security scenarios where targets correspond to passengers and their baggage items. We propose a Self-Supervised Learning (SSL) technique to provide the model information about instance segmentation uncertainty from overhead images. Our SSL approach improves object detection by employing a test-time data augmentation and a regression-based, rotation-invariant pseudo-label refinement technique. Our pseudo-label generation method provides multiple geometrically-transformed images as inputs to a Convolutional Neural Network (CNN), regresses the augmented detections generated by the network to reduce localization errors, and then clusters them using the mean-shift algorithm. The self-supervised detector model is used in a single-camera tracking algorithm to generate temporal identifiers for the targets. Our method also incorporates a multi-view trajectory association mechanism to maintain consistent temporal identifiers as passengers travel across camera views. An evaluation of detection, tracking, and association performances on videos obtained from multiple overhead cameras in a realistic airport checkpoint environment demonstrates the effectiveness of the proposed approach. Our results show that self-supervision improves object detection accuracy by up to $42\%$ without increasing the inference time of the model. Our multi-camera association method achieves up to $89\%$ multi-object tracking accuracy with an average computation time of less than $15$ ms.
translated by 谷歌翻译
使用手动生成标签训练的卷积神经网络通常用于语义或实例分割。在精确的农业中,自动花探测方法使用监督模型和后处理技术,这些技术可能不会始终如一地表现为花朵的出现,并且数据采集条件有所不同。我们提出了一种自我监督的学习策略,以使用自动生成的伪标签来增强分割模型对不同花种物种的敏感性。我们采用数据增强和完善方法来提高模型预测的准确性。然后将增强的语义预测转换为全景伪标签,以迭代训练多任务模型。可以通过现有的后处理方法来完善自我监督的模型预测,以进一步提高其准确性。对多物种果树花数据集的评估表明,我们的方法的表现优于最先进的模型,而无需计算昂贵的后处理步骤,为花朵检测应用提供了新的基线。
translated by 谷歌翻译
将一致的时间标识符分配给视频序列中的多个移动对象是一个具有挑战性的问题。该问题的解决方案将在多个对象跟踪和分段问题中具有立即的分支。我们提出了一种将时间识别任务视为一种时空聚类问题的策略。我们提出了一种使用我们呼叫深度异构的AutoEncoder的卷积和完全连接的AutoEncoder的无监督学习方法,以了解来自分段掩码和检测边界框的歧视特征。我们从预训练的实例分段网络中提取掩码和它们相应的边界框,并使用依赖于任务的不确定性权重培训AutoEncoders以生成共同的潜在功能。然后,我们构建约束图,该图促进满足一组已知时间条件的对象之间的关联。然后将特征向量和约束图提供给kmeans聚类算法,以分离潜像中的相应数据点。我们使用挑战合成和现实世界多对象视频数据集评估我们的方法的性能。我们的结果表明,我们的技术优于几种最先进的方法。
translated by 谷歌翻译
In this study, we propose a lung nodule detection scheme which fully incorporates the clinic workflow of radiologists. Particularly, we exploit Bi-Directional Maximum intensity projection (MIP) images of various thicknesses (i.e., 3, 5 and 10mm) along with a 3D patch of CT scan, consisting of 10 adjacent slices to feed into self-distillation-based Multi-Encoders Network (MEDS-Net). The proposed architecture first condenses 3D patch input to three channels by using a dense block which consists of dense units which effectively examine the nodule presence from 2D axial slices. This condensed information, along with the forward and backward MIP images, is fed to three different encoders to learn the most meaningful representation, which is forwarded into the decoded block at various levels. At the decoder block, we employ a self-distillation mechanism by connecting the distillation block, which contains five lung nodule detectors. It helps to expedite the convergence and improves the learning ability of the proposed architecture. Finally, the proposed scheme reduces the false positives by complementing the main detector with auxiliary detectors. The proposed scheme has been rigorously evaluated on 888 scans of LUNA16 dataset and obtained a CPM score of 93.6\%. The results demonstrate that incorporating of bi-direction MIP images enables MEDS-Net to effectively distinguish nodules from surroundings which help to achieve the sensitivity of 91.5% and 92.8% with false positives rate of 0.25 and 0.5 per scan, respectively.
translated by 谷歌翻译
这项工作使用水果和叶子的图像提出了一个基于学习的植物性诊断系统。已经使用了五个最先进的卷积神经网络(CNN)来实施该系统。迄今为止,模型的精度一直是此类应用程序的重点,并且尚未考虑模型的模型适用于最终用户设备。两种模型量化技术,例如float16和动态范围量化已应用于五个最新的CNN体系结构。研究表明,量化的GoogleNet模型达到了0.143 MB的尺寸,准确度为97%,这是考虑到大小标准的最佳候选模型。高效网络模型以99%的精度达到了4.2MB的大小,这是考虑性能标准的最佳模型。源代码可在https://github.com/compostieai/guava-disease-detection上获得。
translated by 谷歌翻译
缺血性中风病变细分挑战(Isles 2022)为研究人员提供了一个平台,可以将其解决方案与3D MRI的缺血性中风区域进行比较。在这项工作中,我们描述了我们对2022分段任务的解决方案。我们将所有图像重新样本为一个共同的分辨率,使用两种输入MRI模式(DWI和ADC),并使用MONAI的Train Segresnet语义分割网络。最终提交是15个模型的合奏(来自3倍交叉验证的3次运行)。我们的解决方案(NVAUTO团队名称)在骰子度量标准(0.824)和总排名第2(基于合并的度量排名)方面获得了最高位置。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
机器学习(ML)从研究人员和从业者获得了相当大的关注,作为一种新的和适应性的疾病诊断工具。随着ML的进步和本领域的纸张和研究的增殖,需要完全检查机器学习的疾病诊断(MLBDD)。本文从一本书中,本文从2012年到2021年全面研究了MLBDD论文。因此,特定的关键字,1710篇关于助理信息的文件已从科学(WOS)数据库(WOS)数据库中提取,并集成到Excel数据表中进行进一步分析。首先,我们根据年度出版物和最富有成效的国家/地区,机构和作者来检查出版物结构。其次,使用R-Studio软件可视化国家/地区,机构,作者和文章的共同引文网络。他们进一步在引文结构和最具影响力的方面进行了检查。本文概述了MLBDD的研究人员对该主题感兴趣的研究人员,对那些对在这一领域进行更多研究的人进行彻底和完整的MLBDD研究。
translated by 谷歌翻译
在全球范围内,有实质性的未满足需要有效地诊断各种疾病。不同疾病机制的复杂性和患者人群的潜在症状具有巨大挑战,以发展早期诊断工具和有效治疗。机器学习(ML),人工智能(AI)区域,使研究人员,医师和患者能够解决这些问题的一些问题。基于相关研究,本综述解释了如何使用机器学习(ML)和深度学习(DL)来帮助早期识别许多疾病。首先,使用来自Scopus和Science(WOS)数据库的数据来给予所述出版物的生物计量研究。对1216个出版物的生物计量研究进行了确定,以确定最多产的作者,国家,组织和最引用的文章。此次审查总结了基于机器学习的疾病诊断(MLBDD)的最新趋势和方法,考虑到以下因素:算法,疾病类型,数据类型,应用和评估指标。最后,该文件突出了关键结果,并向未来的未来趋势和机遇提供了解。
translated by 谷歌翻译
使用视频/图像的驾驶员嗜睡检测是当今驾驶员安全时间最重要的领域之一。在诸如嗜睡检测的计算机视觉应用中应用的深度学习技术,尤其是卷积神经网络(CNN)的发展,由于近几十年来,由于技术的巨大增加,已经显示出有前途的结果。关闭或闪烁过度,打呵欠,点头和闭塞的眼睛都是嗜睡的关键方面。在这项工作中,我们在Yawdd数据集上应用了四种不同的卷积神经网络(CNN)技术,以检测和检查困难程度的程度,这取决于具有特定姿势和遮挡变化的打开频率。初步计算结果表明,我们所提出的集合卷积神经网络(ECNN)通过实现0.935的F1得分优于传统的基于CNN的方法,而另外三个CNN,如CNN1,CNN2和CNN3接近的方法,则获得0.92,0.90,和0.912 F1分别分别分别进行评分。
translated by 谷歌翻译